信用风险评分卡系列之特征变量（二）

Patrick 66号学苑 2022-09-08

本篇主要介绍特征工程过程，包括特征变量衍生、特征变量分析和处理等。特征工程在数据挖掘建模过程中时间占比通常达到70%~80%，甚至更高。有一句话说的挺好，数据和特征决定了机器学习的上限，模型和参数决定了逼近这个上限的程度。做好特征工程是非常基础和重要的工作，很大程度决定了最终模型的效果。

1.变量设计和衍生

特征工程的难点在于需要结合对业务的理解，设计能够表征数据特点的新特征变量，即从原始数据（rawdata）提取加工出有用的特征变量（feature）。

（1）以常见的交易流水数据为例，通常会结合时间进行变量衍生。比如电商购物交易流水，客户如果经常网上购物，名下会有很多条交易支付记录，需要对数据清洗合并。以最近7天，最近30天，最近60天，最近半年，最近1年等，计算期间内发生的交易金额。在信用风险评分模型中，一般以3+，30+，60+，90+，180+等时间长度来衍生变量，具体设计时结合业务场景考虑；

（2）金额的衍生，通常以最大金额、最小金额、平均金额、总金额来扩展，然后加上期间内的交易总次数；

（3）除了时间+金额的衍生，还可以考虑交易的类别，有的客户会经常购买3C产品，有的客户则喜欢购买衣服鞋子。将相似的购物消费类别合并，可以进一步做业务分群，这里就不做展开了；

（4）进一步，电商购物需要填写收货地址，期间内收货地址变更的次数，收货地址所处的区域情况（是城中村还是高档小区等等）都可以衍生；

（5）本例数据集中，已经提供了完整的特征变量

如果能获取明细数据，对于账单金额和还款金额变量，可以按照如上思路进一步做衍生。

总之，特征变量的设计和衍生，需要结合数据深入的理解业务。

2.变量分析

衍生完变量后，继续对特征变量做分析，需要做到对特征变量非常了解。

（1）变量分析

单变量分析存很多预测衡量指标，下表出自《评分卡研究》：

a.皮尔森相关系数

皮尔森相关系数衡量的是线性关联性的程度

b.斯皮尔曼相关系数

斯皮尔曼相关系数计算时采用的是取值的等级，而不是取值本身。这样的好处，是可以避免皮尔逊相关系数对离群点和极端值导致的敏感性。

c.皮尔森卡方统计

其它基尼方差、信息值、熵方差等单变量预测力分析常见的指标，这里就不做详述。

性别的频数分布表

婚姻状态的频数分布表

这里使用IV信息值来评估单变量的预测力，信息值要达到多高才有效果，

可以参考下表

经过计算，发现education信息值还可以，另外两个变量的信息值都比较小。

3.变量处理

这个阶段主要是对变量做数据分箱和降基处理。分箱是评分卡开发的重要阶段，分箱后变量方可使用标准的评分卡格式。常见的分箱方法：等频分箱、等距分箱以及最优分箱。前面两种方法容易理解，这里介绍一下最优分箱的方法。

(1)连续型变量，过程类似决策树，先是等距将数据分成多个分箱，然后再结合基尼方差、熵、信息值等衡量指标，对型变量进行最优分箱；限于篇幅，最优分箱不做详细描述，建议详细了解一下决策树分裂过程。

如下是我阅读spark mllib决策树源码笔记，供参考：

(2)对于离散型变量，一种是手工合并分类，比如频次低的，或者业务含义类似的变量值；另外一种就是与连续型最优分箱类似，不同的地方是连续型变量需要先等距分箱一次。

由于特征变量的选择跟模型的开发往往结合在一起，下文再介绍特征选择、模型开发。

来源|互金风控联盟

作者| Patrick

更多精彩，戳这里：

|这是一份可以让你很牛很牛的风控技能包|

|一秒get互联网金融风控模型评价方法|

|关于模型的100个问答—part3|

|评分卡建设第三课：变量分组（强弱之分）|

|如何解决Logistic做模型效果不好|

点击阅读原文，即可报名信用评分卡模型系列

大摩宏观策略谈：2025中美变局展望

假设，你遇到麦琳怎么办？

董事长两口子不干了，至暗时刻谁是白衣骑士

2024年心理咨询师报名通道开启！可考心理证书，无需辞职，名额有限，11月30日截止报名！！！

吴京捧红的白眼狼，爆红后却反咬一口，如今落魄到无戏可拍

信用风险评分卡系列之特征变量（二）

您可能也对以下帖子感兴趣

大摩宏观策略谈：2025中美变局展望

假设，你遇到麦琳怎么办？

董事长两口子不干了，至暗时刻谁是白衣骑士

2024年心理咨询师报名通道开启！可考心理证书，无需辞职，名额有限，11月30日截止报名！！！

吴京捧红的白眼狼，爆红后却反咬一口，如今落魄到无戏可拍

生成图片，分享到微信朋友圈

信用风险评分卡系列之特征变量（二）

您可能也对以下帖子感兴趣